AI资讯新闻榜单内容搜索-Richard Su

强化学习教父重出江湖，生成式AI的时代要结束了？

过去两年，AI靠模仿人类席卷世界。但强化学习之父Richard Sutton却说：「GenAI的时代正在结束。」他带着图灵奖的荣光，加入一家几乎没人听过的公司——ExperienceFlow.AI，他要让AI不靠人类数据喂养，而靠「经验」觉醒。

来自主题: AI资讯

9744 点击 2025-11-07 15:04

强化学习之父给LLM判死刑！站队LeCun：我们全搞错了

当全世界都在狂热追逐大模型时，强化学习之父、图灵奖得主Richard Sutton却直言：大语言模型是「死胡同」。在他看来，真正的智能必须源于经验学习，而不是模仿人类语言的「预测游戏」。这番话无异于当头一棒，让人重新思考：我们追逐的所谓智能，究竟是幻影，还是通向未来的歧路？

来自主题: AI资讯

9356 点击 2025-09-30 15:40

交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL，昇腾加持，开创智能体训练新范式

强化学习之父、2024 年 ACM 图灵奖得主 Richard Sutton 曾指出，人工智能正在迈入「经验时代」—— 在这个时代，真正的智能不再仅仅依赖大量标注数据的监督学习，而是来源于在真实环境中主动探索、不断积累经验的能力。

来自主题: AI技术研报

9176 点击 2025-09-11 18:53

强化学习之父：LLM主导只是暂时，扩展计算才是正解

大模型目前的主导地位只是暂时的，在未来五年甚至十年内都不会是技术前沿。这是新晋图灵奖得主、强化学习之父Richard Sutton对未来的最新预测。

来自主题: AI资讯

9920 点击 2025-06-10 15:07

谷歌联合强化学习之父：通过经验学习的4大核心，Agent将获得超人能力 |最新战略瞭望

本文对DeepMind两位泰斗级科学家David Silver和Richard Sutton的重磅论文《Welcome to the Era of Experience》进行了深度解读，我将其视为AI发展方向的一份战略瞭望图。

来自主题: AI技术研报

9532 点击 2025-04-22 08:43

强化学习之父当头一棒：RL版「苦涩的教训」来了！通往ASI，绝非靠人类数据

强化学习之父Richard Sutton和DeepMind强化学习副总裁David Silver对我们发出了当头棒喝：如今，人类已经由数据时代踏入经验时代。通往ASI之路要靠RL，而非人类数据！

来自主题: AI技术研报

10081 点击 2025-04-21 10:52

刚刚，2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

强化学习先驱 Andrew Barto 与 Richard Sutton 获得今年的 ACM 图灵奖。

来自主题: AI资讯

7742 点击 2025-03-06 10:48

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

自然智能（Natural intelligence）过程就像一条连续的流，可以实时地感知、行动和学习。流式学习是 Q 学习和 TD 等经典强化学习 (RL) 算法的运作方式，它通过使用最新样本而不存储样本来模仿自然学习。这种方法也非常适合资源受限、通信受限和隐私敏感的应用程序。

来自主题: AI技术研报

7518 点击 2024-11-29 15:18

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

在奖励中减去平均奖励

来自主题: AI技术研报

8851 点击 2024-11-01 12:43

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

Richard Sutton 在「The Bitter Lesson」中做过这样的评价：「从70年的人工智能研究中可以得出的最重要教训是，那些利用计算的通用方法最终是最有效的，而且优势巨大。」

来自主题: AI技术研报

7198 点击 2024-05-12 11:26

AI资讯新闻榜单内容搜索-Richard Su

强化学习教父重出江湖， 生成式AI的时代要结束了？

强化学习之父给LLM判死刑！站队LeCun：我们全搞错了

交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL，昇腾加持，开创智能体训练新范式

强化学习之父：LLM主导只是暂时，扩展计算才是正解

谷歌联合强化学习之父：通过经验学习的4大核心，Agent将获得超人能力 |最新战略瞭望

强化学习之父当头一棒：RL版「苦涩的教训」来了！通往ASI，绝非靠人类数据

刚刚，2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

强化学习教父重出江湖，生成式AI的时代要结束了？